Otvoreni podaci deo su širokog globalnog pokreta koji ne samo da unapređuje nauku i naučnu komunikaciju, već transformiše moderno društvo i način donošenja odluka. Podaci, LifeBlood našeg novog globalnog životnog sistema, ključni su resurs za rješavanje velikih ne samo lokalnih, već i globalnih izazova današnjice.
Izazov otvorenih podataka
Stvarna vrednost otvorenih podataka nije samo u tome što se pojedinačne baze podataka mogu šire koristiti, već u tome da se ti podaci takođe mogu koristiti, deliti i kombinovati sa drugim podacima. Otvoreni podaci olakšavaju naučne saradnje, obogaćuju istraživanja i generalno unapređuju analitičke kapacitete za donošenje odluka. U demokratskom društvu koje dobro funkcioniše, građani moraju znati šta njihova vlada radi. Da bi to učinili, moraju imati slobodan pristup državnim podacima i informacijama i deliti te informacije sa drugim građanima.
O otvorenim podacima ne možemo da pričamo, a da ne pomenemo transparentnost. Transparentnost nije samo pristup, već i deljenje i reproduciabilnost, tj. ponovna upotreba - često, da bi se podaci razumeli, potrebno ih je analizirati i vizualizovati, a to zahteva da podaci i sav materijal koriscen za njihovu analizu i rezultati budu otvoreni kako bi se sve moglo slobodno i ponovo koristiti. Time se dobija na vrednosti i validaciji ne samo process analize podataka, već i samih podataka.
Otvaranjem podataka građanima se omogućava mnogo direktnije informisanje i uključivanje u donošenje odluka. Ovo je više od transparentnosti: omoogucava se „pristup, tj. čitanje" i "kreiranje, tj. pisanje“ podataka. Reč je ne samo o znanju o tome šta se dešava u procesu upravljanja, već i o mogućnosti da tome kao gradjani doprinosimo. Država otvaranjem podataka i činjenjem pristupu informacijama slobodnim kreira podatke kao društveno dobro koje može da se iskoristi za razvoj preduzetničkih biznisa i poslovnih sistema. Preduzetnici imaju sposobnost rešavanja problema, ali im često nedostaju resursi da pokrenu svoje poduhvate. Bilo bi im teško uložiti u nabavku podataka koji su često vrlo skupi. S druge strane, vlade pokušavaju da reše mnoge probleme, ali im nedostaju sposobnosti za rešavanje problema koje imaju preduzetnici. Stoga se vlade i preduzetnici udružuju kako bi rešili zajedničke probleme. Time vlada omogućava preduzetnicima da pokažu svoje talente i pokrenu svoje poduhvate.
Analizom podataka možemo da prodremo u činjenice, koje su na oko skrivene u podacima, uz pomoć kojih možemo da verifikujemo pretpostavke, uočimo nove mogućnosti, izazove i probleme do kojih može doći i shodno tome kreiramo planove. Instikte podžane spoznajom činjeničnog stanja i analitičkog načina razmišljanja je lakše pratiti i uzeti u obzir. Razotkrivanje postojećih činjenica omogućava proaktivnije donošenje odluka uz veću samouverenost i kompetentnost.
Bez obzira koju vrste analize podataka radite njen proces je u biti uvek isti. On počinje postavljanjem pitanja i definisanjem problema.
Proces analize podataka
Za „dobro“ analitičko razmišljanje je korisno biti kreativan, kritičan i pedantan. Umeti postaviti precizna pitanja i biti kreativan u pronalaženju njihovih rešenja je suštinski deo procesa analize podataka.
Postavljanje pitanja je osnovni pokretač procesa analize podataka. Ona navode na pronalaženje činjenica sadržanim u podacima iz kojih se mogu izvući konkretni zaključci. Ovi zaključci pomažu u pronalaženju idejnih rešenja. Efektivno postavljanje pitanja pomaže efektivno sprovođenje procesa analize.
U toku faze definisanja problema potrebno je pažljivo formulisati pitanja i detaljno sagledati očekivanja svih njegovih aktera uključenih u aktivnost. To zahteva strpljenje i preciznost u koje se isplati uložiti trud jer će kasnije pomoći da se dođe do uspešnijeg cilja.
Osnovno pitanje od kojih je najbolje poći u potrazi za rešenja identifikovanih probleme jeste: Zašto? Zašto problem postoji; zašto su uzročnici prisutni?… Pitanje gde? je takođe korisno u identifikovanju postojećih ili potencijalnih problema. Gde?; na koji deo posmatranog procesa treba da postavimo fokus kako bi omogućili uspešno ostvarivanje cilja? Šta? je to što zahteva našu pažnju i šta treba preduzeti da bi uspešno došli do željenog stanja. Postavljanje pitanja igra bitnu i važnu ulogu u procesu analize podataka. Analitički način razmišljanja i postavljanje dobro kreiranih pitanja ima veliki impakt na proces analize podataka.
Korišćenjem obe vrste podataka: kvantitativnih i kvalitativnih i konstantnom primene procesa analize nad prikupljenim podacima i dobijenim rezultatima, moguće je prodreti u srž problema. Neophodno je pristupiti problemu na sistematičan način koji podrazumeva postavljanje logički povezanih pitanja.
Komunikacija dobijenih rezultata je vrlo bitan deo faze analize. Ceo proces analize je beskoristan ukoliko rezultati nisu iskomunicirani na efektivan način. Opis problema i postavljanje pitanja samo su prva faza celokupnog procesa analize koji završava kreiranjem izveštaja o analizama, novim informacijama, zaključcima i odlukama koje je moguće na osnovu ovih rezultata doneti.
Grafičko prikazivanje ili ti vizualizacija rezultata je ključna za pojednostavljivanje njihovog tumačenja. Vizualizacije pomoću grafikona, mapa i tabela često mogu da prikažu kompleksnu priču izvučenu iz podataka na jednostavan i privlačan način. Dobra vizualizacija može da privuče pažnju i onih koji u suprotnom možda nebi bili zainteresovani za tematiku. Vizualizacija treba da omogući jasno uočavanje činjenica izvučenih iz podataka i da navede na nova razmišljanja i nova pitanja. Na kraju, rezultati analize treba da omoguće jasno donošenje zaključaka na osnovu činjeničnog stanja sagledanog kroz podatke.
Grafički metodi uobičajeno se upotrebljavaju u istraživačkoj fazi analize podataka. Za istraživanje podataka upotrebljavaju se različiti tipovi grafičkih alata: boxplotovi, scatter matrice, dijagrami/stabla i mnogi drugi. U ovom delu kursa upoznaćemo vas sa praktičnim rešenjima izbora najboljih tipova grafikona za izradu grafičkih prikaza koji će vam služiti da komunicirate vaše nalaze
Dobri i jasni grafici zasnovani su, pre svega, na pouzdanim podacima. Prvi princip efektne vizuelizacije je prezentacija pouzdanih podataka. Tip informacije koju želite da komunicirate i prikažete, diktiraće izbor najprikladnijeg načina grafičkog kodiranja podataka kako bi grafikoni postali uočljiviji. Zato je bitno shvatiti problem koji želite da komunicirate i vrstu podataka koji su vam potrebni za njegovo komuniciranje iz statističke perspektive, tj. da li su podaci numerički, kategorički (ordinalni ili nominalni), vremenski (vremenska dimenzija) ili predstavljaju geografski položaj (prostorne dimenzije) u slučaju vremensko-prostornih podataka?
Mapa i njen format
Vizuelno kodiranje setova podataka zavisi od broja i karakteristike raspoloživih atributa tj. varijabli i od analitičkog problema o kojem je reč. Alberto Cairo u svom blogu The Functional Art daje listu grafikona upotrebljavanih za prezentacije različitih podataka i/ili različite funkcije prezentacije. Sledeća fugura illustruje različitee grafičke prikaze zadatka u zavisnosti od različite percepcije koju su dobro uočili u svom revolucionarnom radu Kliveland i Mekgil koji su razvili dok su radili u čuvenom AT&T Bell Labs, u istraživanju objavljenom u časopisu JASA.
Funkcionalni formati
Grafikon ilustruje pregled grafičkih formi koje se mogu upotrebljavati za predstavljanje podataka tako da se istakne zaključak koji čitalac može doneti iz različitih formata. Na primer, ako je cilj grafikona da predstavi i olakša precizna poređenja, Alberto u svojoj knjizi The Functional Art donosi efikasne ilustracije za različite grafičke oblike koje bi mogli da koristite.
Izbor grafičkog formata
Ne postoji posebna razvijena metodologija za izbor najprikladnijih načina kodiranja podataka. Nikada unapred ne znate da li će određeni vizuelni format funkcionisati sve dok to ne proverite. Izbor će najviše zavisiti od toga koji se atributi upotrebljavaju. Međutim, postoje određene smernice nekoliko autora koje vam preporučujemo da pogledate:
Često, grafički prikaz informacija koji nam daju odgovor na postavljeno pitanje sugerisaće na dalja potrebna istraživanja, zbog čega je važno da ih predstavimo na jasan i istinski način. Ne treba zaboraviti da je jedina svrha analiza podataka, dakle vizualizacije, informisanje i unapređenje znanja. Dakle, treba vrlo pažljivo razmotriti estetsku privlačnost i dizajn grafikona koje stvaramo kako bismo što efikasnije angažovali publiku, ali na način da nam je fokus pre svega na tačnosti, dubini i jasnoći informacija koje prikazujemo.
Započnimo igru „određivanja načina kodiranja“. Razgovarajte sa kolegama i napravite listu grafičkih formi i vrstu kodiranja koju bi koristili za svaku od sledećih vizualizacija.
Indeks digitalne ekonomije i društva
Dnevna i nedeljna upotreba interneta u EU
Zaposlenost u informaciono-komunikacionim tehnologijama
Zaposlenost u informaciono-komunikacionim tehnologijama
Zaposlenost u informaciono-komunikacionim tehnologijama
Zaposlenost u informaciono-komunikacionim tehnologijama
Takođe, kliknite i na sledeću vizuelizaciju: A Periodic Table of visualisation methods
Najvažnija što treba da zapamtite pri kreiriranju grafičke prezentacije podataka je da one moraju biti jasne i istinite. Skala koju treba da izaberete za prikaz podataka treba da bude dovoljno osetljiva da se vide promene u podacima, a u isto vreme da omogući komuniciranje različitih delova te skale i preciznih vrednosti na njoj. Prikaza statistka na grafikonu treba bude jasan i da sadrži izvore informacija i kalkulacija koje su upotrebljene za proračun.
Evo nekih najočiglednijih problema na koje morate obratiti pažnju prilikom kreiranja efikasnih grafikona:
Izbor skale
Izbor skale
Izbor skale treba da omogući lakše iščitavanje informacije prikazane na grafikonu. Pogledajte post What to consider when creating a line chart autorke Lisa Charlotte Rost, u kojoj ćete naći još neke interesantne linkove povezane sa ovom temom.
Nagalsak na bitno
Nagalsak na bitno
Ponekad bi bilo efikasno da ključne podatke iz grafikona izdvojite u odvojene grafikone i predstavite ih paralelno.
Izdvajanje bitnog
Imajte na umu da informacije na grafičkom prikazu ne bi trebale biti zbunjujuće.
Nagalsak na bitno
Nagalsak na bitno
Integrišite tekst na grafikonima samo ako je to potrebno da biste lakše preneli informacije prikazane na njima.
Dodavanje teksta
U sledećoj prezentaciji Alberto Cairo Kairo ilustruje važnost dobrog izbora formata vizuelizacije priče “Kako se muzički ukus promenio za dve decenije”.
muzička preferencija
Prilikom kreiranja vizuelizacije podataka razmislite o konkretnim informacijama koje želite da prenesete, ili o rezultatu koji želite da postignete. Budite jednostavni i uklonite sve nepotrebne elemente koji vam mogu zamagliti vašu prezentaciju. Nepotrebni podaci samo će zbuniti vaše čitaoce.
Kada kreirate grafički prikaz, fokusirajte se na dobre prakse i istražite svoj lični stil. Naučite kako da istražujete i rezimirate vaše podatke kao i kako da identifikujete njihova glavna obeležja koja će vam pomoći da ih vizuelno prezentujete.
Postoji uverenje da su grafikoni sa dve različite y-ose teški za čitanje jer čine teškim razaznati dva seta informacija. Druga sekundarna y-osa na grafikonu često stvara zabunu i nije jasno koji od podataka se odnosi na koju osu. Njihova glavna odlika je da nisu intuitivni. Često umeju da stvare konfuziju i da pretpostavljaju veze između podataka tamo gde ih nema. Međutim, Stephen Few je napisao dobro argumentovan tekst Dual-Scaled Axes in Graphsđ u kojem pažljivo predstavlja izazove koje treba imati u vidu kod ovakvih grafika. Neophodno je da sami odlučite hoćete li ih koristiti ili ne. Ta odluka treba da zavisi od vašeg suda da li su oni dobri za vaše vizulene priče i da li ih možete upotrebi kao i bilo koji drugi grafički format.
Dualna skala
Interaktivnost omogućuje čitaocima da kreativnije pregledaju podatke, na načine na koje to nije moguće raditi sa statičkim grafikonima. Glavna korist od interaktivne vizuelizacije podataka je njihova fleksibilnost koja omogućuje dalju manipulaciju i njihovo istraživanje. Korišćenje „zoom in“ opcije daje uvećani prikaz podataka koji su manje vidljivi. Time ih je moguće učiniti dodatno vidljivijim čime se omogućava čitaocima da se dodatno zaintrigiraju da istraže podatke. Interaktivni način predstavljanja podataka je bogat i snažan alat za prikaz osobina podataka i omogućuje čitaocima da urone u njih u zavisnosti od njihovog nivoa interesovanja.
Kliknite na vizuelizaciju: CINS: Odakle dolaze donatori
Partijske donacije
Ceo proces analize je beskoristan ukoliko rezultati nisu iskomunicirani na efektivan način. Opis problema i postavljanje pitanja samo su prva faza celokupnog procesa analize koji završava kreiranjem izveštaja o analizama, novim informacijama, zaključcima i odlukama koje je moguće na osnovu ovih rezultata doneti. Raporti su periodični izveštaji kreirani na osnovu prikupljenih informacija iz prošlosti i obično su statičnog tipa u vidu Word dokumenta ili recimo PowerPoint prezentacije. Da bi se omogućilo praćenje toka stanja i uzele u obzir nove informacije, neophodno ih je redovno ažurirati. Postoji takodje i dinamičan način izveštavanja koji se naziva Komandna Tabla (Dashboard) koji omogućava konstantno ažuriranje novim podacima i omogućava interaktivnu komunikaciju sa korisnikom. Kao primer pogledaj mapiranje saobraćajnih nezgoda na teritoriji Beograda: https://tatjana.shinyapps.io/TrafficAccidents/
Saobraćajne nezgode
Izazov: Određivanje načina kodiranja
Nastavimo započetu igru „određivanja načina kodiranja“. Razgovarajte sa kolegama i napravite listu grafičkih formi i vrstu kodiranja koju bi koristili za neko od podataka koje smatrate interesantnim sa portala otvorenih podataka Republike Srbije: https://data.gov.rs/sr/.
R zajedno sa RStudiom je najbolji alat za rad sa podacima! To je besplatni softver iz javnog domena koji je dostupan svima koji žele da otkriju, uče, istražuju, prošire i dele algoritme svog putešestva kroz podatke.
Instrukcije kako da instalirate R i RStudio možete pronaći na sledećoj stranici: (Instalacija R i RStudia)[https://instalirajr.netlify.app]
Podjimo od nečega što je već urađeno i što može da nam pruži ideje o mogućnostima rada sa otvorenim podacima.
Skinite repository: https://github.com/TanjaKec/HowToShiny
GitHub Repository
i kliknite na fajl HowToShiny.Rproj kako bi ste pokrenuli R/RStudio.
U narednim koracima ćemo kreirati applikaciju poput dole prikazane.
Moja prva applikacija
Sve korake možete pratiti na prezentaciji postvaljenoj na sledećem linku: https://tanjakec.github.io/DataDemocrcyKlikR1/DataDemocracyKlikR.html
Da bi nam bilo lakše i brže kopiraćemo date delove koda i ubacivati u neophodni deo aplikacije koju gradimo.
Korak 1: Kreirajte input sa input funkcijom
Ubacite dole dati deo koda kao što je prikazano na slajdu 23. Obratite pažnju na zagrade i zareze pri dodavanju novih argumenata. Krenucemo od dizajna korisničkog interfejsa (User Inteface, UI).
selectInput("Vector", "Select Mean of Distribution",
c(0, 1, 2, 3, 4, 5),
selected = 0, multiple = FALSE)
Korak 2: Kreiranje grafičkog prikaza
Na UI koji gradimo treba dodati grafikon za prikaz. Pri dodavanju dole datog koda, ponovo obratite pažnju na zareze i zagrade.
plotOutput("main_plot")
Nakon što smo postavili objekte za komunikaciju sa korisnikom na korisničkom interfjsu, sledeće šta treba da uradimo je da kažemo serveru koje operacije da odradi.
U sledećem koraku omogućićemo kreiranje histograma za prikaz 100 brojeva iz standardne normale distribucije (rnorm) koji će biti prikazan unutar definisanog output objekta main_plot.
Korak 3:
output$main_plot <- renderPlot(hist(rnorm(100),
breaks=15,
xlab="",
main="Histogram of samples size n"))
Sad kada ste dobili ideju o funkcionisanju Shiny applikacija u R-u, zamenite kod unutar aplikacije za UI
headerPanel("Hello!"),
sidebarPanel(selectInput("Vector", "Select Mean of Distribution",
c(0, 1, 2, 3, 4, 5), selected = 0, multiple = FALSE),
numericInput("n", "n", 50),
actionButton("go", "Go")),
mainPanel(plotOutput("main_plot"),
verbatimTextOutput("stats"))
i za server sa
randomVals <- eventReactive(input$go, input$n)
v <- function() {
return(rnorm(randomVals(),mean=as.numeric(input$Vector)))
}
output$main_plot <- renderPlot(hist(v(),
breaks=15,
xlab="",
main="Histogram of samples size n"))
output$stats <- renderPrint({summary(v())})
Kod cele aplikacije bi trebao da izgleda ovako:
#
# This is a Shiny web application. You can run the application by clicking
# the 'Run App' button above.
#
# Find out more about building applications with Shiny here:
#
# http://shiny.rstudio.com/
#
library(shiny)
# Define UI for application that draws a histogram
ui <- fluidPage("Hello",
selectInput("Vector", "Select Mean of Distribution",
c(0, 1, 2, 3, 4, 5),
selected = 0, multiple = FALSE),
plotOutput("main_plot")
)
# Define server logic required to draw a histogram
server <- function(input, output) {
output$main_plot <- renderPlot(hist(rnorm(100),
breaks=15,
xlab="",
main="Histogram of samples size n"))
}
# Run the application
shinyApp(ui = ui, server = server)
Nakon ovoga biće vam lakše da shvatite ideju i funkcionalno kreirane aplikacije za saobraćajne nezgode na teritoriji Beograda koju možete naći na sledećem repozitorijumu:
https://github.com/TanjaKec/OpenDataPlay
Srećno kodiranje i istraživanje mogućnosti datih kroz analize i igre sa otvorenim podacima 🙌🙌🙌